HEAD
PALMER PENGUINS ########################
#1. Introduction
#Télécharger la base de données
tuesdata <- tidytuesdayR::tt_load('2020-07-28')
## --- Compiling #TidyTuesday Information for 2020-07-28 ----
## --- There are 2 files available ---
## --- Starting Download ---
##
## Downloading file 1 of 2: `penguins.csv`
## Downloading file 2 of 2: `penguins_raw.csv`
## --- Download complete ---
tuesdata <- tidytuesdayR::tt_load(2020, week = 31)
## --- Compiling #TidyTuesday Information for 2020-07-28 ----
## --- There are 2 files available ---
## --- Starting Download ---
##
## Downloading file 1 of 2: `penguins.csv`
## Downloading file 2 of 2: `penguins_raw.csv`
## --- Download complete ---
penguins <- tuesdata$penguins
penguins
## # A tibble: 344 x 8
## species island bill_length_mm bill_depth_mm flipper_length_… body_mass_g
## <chr> <chr> <dbl> <dbl> <dbl> <dbl>
## 1 Adelie Torge… 39.1 18.7 181 3750
## 2 Adelie Torge… 39.5 17.4 186 3800
## 3 Adelie Torge… 40.3 18 195 3250
## 4 Adelie Torge… NA NA NA NA
## 5 Adelie Torge… 36.7 19.3 193 3450
## 6 Adelie Torge… 39.3 20.6 190 3650
## 7 Adelie Torge… 38.9 17.8 181 3625
## 8 Adelie Torge… 39.2 19.6 195 4675
## 9 Adelie Torge… 34.1 18.1 193 3475
## 10 Adelie Torge… 42 20.2 190 4250
## # … with 334 more rows, and 2 more variables: sex <chr>, year <dbl>
Ce jeu de données sur trois espèces de pingouins contient des mesures de taille, de poids ou encore le sexe pour trois espèces de manchots observées sur trois îles de l’archipel Palmer, en Antarctique sur une période d’étude de trois ans (2007-2009).
=======Ce jeu de données contient des mesures de taille, de poids ou encore le sexe pour trois espèces de manchots observées sur trois îles de l’archipel Palmer, en Antarctique.
Les manchots de l’archipel Palmer. Illustration de @allison_horst .
Ces données ont été recueillies de 2007 à 2009 par le Dr Kristen Gorman avec le programme de recherche écologique à long terme de la station Palmer , qui fait partie du réseau américain de recherche écologique à long terme .
>>>>>>> 74919b9ccd7ff75173112a2623bef31ade9743ce#Quelques statistiques descriptives
summary(penguins)
## species island bill_length_mm bill_depth_mm
## Length:344 Length:344 Min. :32.10 Min. :13.10
## Class :character Class :character 1st Qu.:39.23 1st Qu.:15.60
## Mode :character Mode :character Median :44.45 Median :17.30
## Mean :43.92 Mean :17.15
## 3rd Qu.:48.50 3rd Qu.:18.70
## Max. :59.60 Max. :21.50
<<<<<<< HEAD
## NA's :2 NA's :2
=======
## NA's :2 NA's :2
>>>>>>> 74919b9ccd7ff75173112a2623bef31ade9743ce
## flipper_length_mm body_mass_g sex year
## Min. :172.0 Min. :2700 Length:344 Min. :2007
## 1st Qu.:190.0 1st Qu.:3550 Class :character 1st Qu.:2007
## Median :197.0 Median :4050 Mode :character Median :2008
## Mean :200.9 Mean :4202 Mean :2008
## 3rd Qu.:213.0 3rd Qu.:4750 3rd Qu.:2009
## Max. :231.0 Max. :6300 Max. :2009
<<<<<<< HEAD
## NA's :2 NA's :2
#2. Présentation des données
La longueur de la nageoire du manchot et la masse corporelle montrent une association positive pour chacune des 3 espèces :
ggplot(data = penguins, aes(x = flipper_length_mm, y = body_mass_g)) +
geom_point(aes(color = species,
shape = species),
size = 2) +
scale_color_manual(values = c("darkorange","darkorchid","cyan4"))
## Warning: Removed 2 rows containing missing values (geom_point).
La longueur et la profondeur du bec de pingouin montrent également des modèles intéressants. Si on ignore les espèces, on pourrait penser qu’il y a une corrélation négative entre ces deux variables :
ggplot(data = penguins, aes(x = bill_length_mm, y = bill_depth_mm)) +
geom_point(size = 2) +
geom_smooth(method = "lm", se = FALSE)
## `geom_smooth()` using formula 'y ~ x'
## Warning: Removed 2 rows containing non-finite values (stat_smooth).
## Warning: Removed 2 rows containing missing values (geom_point).
Cependant, si on regarde les corrélations au sein des espèces, la longueur et la profondeur du bec sont en fait corrélées positivement :
ggplot(data = penguins, aes(x = bill_length_mm, y = bill_depth_mm)) +
geom_point(aes(color = species,
shape = species),
size = 2) +
geom_smooth(method = "lm", se = FALSE, aes(color = species)) +
scale_color_manual(values = c("darkorange","darkorchid","cyan4"))
## `geom_smooth()` using formula 'y ~ x'
## Warning: Removed 2 rows containing non-finite values (stat_smooth).
## Warning: Removed 2 rows containing missing values (geom_point).
Enfin, on peut obtenir une séparation assez claire entre les trois espèces en regardant la longueur des nageoires par rapport à la longueur du bec:
ggplot(penguins, aes(x = flipper_length_mm, y = bill_length_mm, colour = species, shape = species)) +
geom_point() +
scale_colour_manual(values = c("darkorange","purple","cyan4"))
## Warning: Removed 2 rows containing missing values (geom_point).
#3: Questions
Les pingouins mâles sont-ils plus gros que les pingouins femelles ?
penguins %>%
filter(sex != "N/A") %>%
ggplot(aes(x = sex, y = body_mass_g)) +
geom_path() +
facet_wrap(~species)+
aes(color = sex)+
labs(x = "sexe", y = "poids en gramme", title = "Le poids des pingouins selon leur espèce en fonction du sexe")
Cette base de données contient 344 observations. Regardons la répartition du nombre de manchot par espèce :
penguins %>%
ggplot(aes(x = species, fill = species)) +
geom_bar() +
geom_text(stat = "count", aes(label = (..count..)), vjust = -1, size = 5) +
coord_cartesian(ylim = c(0,180))+
scale_fill_manual(values = c("darkorange","purple","cyan4")) +
labs(x = "L'espèce du manchot", title = "Nombre de manchot par espèce")
Regardons également le nombre de mâles et de femelles par espèce de manchot :
penguins %>%
filter(sex != "N/A") %>%
ggplot(aes(x = sex, fill = species)) +
geom_bar(alpha = 0.8) +
geom_text(stat = "count", aes(label = (..count..)), hjust = -0.1, size = 5) +
scale_fill_manual(values = c("darkorange","purple","cyan4")) +
facet_wrap (~species, ncol = 1 ) +
coord_flip() +
labs(y = "Sexe ", title = "Répartition des mâles et femelles par espèce")
#Explorer les distributions : Analysons la longueur du bec par espèce :
penguins %>%
ggplot(aes(x = species, y = bill_length_mm)) +
geom_jitter(aes(col = species), width = 0.1, alpha = 0.7, show.legend = FALSE) +
scale_color_manual(values = c("darkorange","darkorchid","cyan4")) +
labs(x = "Espèce", y = "Longueur du bec en mm", title = "La longueur du bec par espèce")
## Warning: Removed 2 rows containing missing values (geom_point).
Ou encore la longueur des nageoires par espèce :
penguins %>%
ggplot(aes(x = flipper_length_mm))+
geom_histogram(aes(fill = species), alpha = 0.5, position = "identity") +
scale_fill_manual(values = c("darkorange","darkorchid","cyan4")) +
labs(x = "Longueur des nageoires en mm", title = "La longueur des nageoires par espèce")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## Warning: Removed 2 rows containing non-finite values (stat_bin).
#Explorer les nuages de points Ces données ont quatre variables continues, ce qui rend possible de représenter des nuages de point.
La longueur de la nageoire du manchot et la masse corporelle montrent une association positive pour chacune des 3 espèces :
penguins %>%
ggplot(aes(x = flipper_length_mm, y = body_mass_g)) +
geom_point(aes(color = species, shape = species), size = 2) +
scale_color_manual(values = c("darkorange","darkorchid","cyan4")) +
labs(x = "Longueur de la nageoire en mm", y = "Poids en gr", title = "La longueur de la nageoire pingouin en fonction de la masse corporelle")
## Warning: Removed 2 rows containing missing values (geom_point).
On peut ajouter la distinction du genre :
penguins %>%
ggplot(aes(x = flipper_length_mm , y = body_mass_g)) +
geom_point(aes(color = sex)) +
scale_color_manual (values = c("darkorange" ,"cyan4")) +
facet_wrap (~ species) +
labs(x = "Longueur de la nageoire en mm", y = "Poids en gr", title = "La longueur de la nageoire pingouin en fonction de la masse corporelle selon l'espèce et le sexe")
## Warning: Removed 11 rows containing missing values (geom_point).
La longueur et la profondeur du bec de manchot montrent également des modèles intéressants. Si on ignore les espèces, on pourrait penser qu’il y a une corrélation négative entre ces deux variables :
penguins %>%
ggplot(aes(x = bill_length_mm, y = bill_depth_mm)) +
geom_point(size = 2) +
geom_smooth(method = "lm", se = FALSE) +
labs(x = "Longueur du bec en mm", y = "Profondeur du bec en mm", title = "Corrélation entre la longueur et la profondeur du bec")
## `geom_smooth()` using formula 'y ~ x'
## Warning: Removed 2 rows containing non-finite values (stat_smooth).
## Warning: Removed 2 rows containing missing values (geom_point).
Cependant, si on regarde les corrélations au sein des espèces, la longueur et la profondeur du bec sont en fait corrélées positivement :
penguins %>%
ggplot(aes(x = bill_length_mm, y = bill_depth_mm)) +
geom_point(aes(color = species, shape = species), size = 2) +
geom_smooth(method = "lm", se = FALSE, aes(color = species)) +
scale_color_manual(values = c("darkorange","darkorchid","cyan4")) +
labs(x = "Longueur du bec en mm", y = "Profondeur du bec en mm", title = "Corrélation entre la longueur et la profondeur du bec selon l'espèce")
## `geom_smooth()` using formula 'y ~ x'
## Warning: Removed 2 rows containing non-finite values (stat_smooth).
## Warning: Removed 2 rows containing missing values (geom_point).
Enfin, on peut obtenir une séparation assez claire entre les trois espèces en regardant la longueur des nageoires par rapport à la longueur du bec:
penguins %>%
ggplot(aes(x = flipper_length_mm, y = bill_length_mm, colour = species, shape = species)) +
geom_point() +
scale_colour_manual(values = c("darkorange","purple","cyan4")) +
labs(x = "Longueur des nageoires en mm", y = "Longueur du bec en mm", title = "La longueur des nageoires par rapport à la longueur du bec selon chaque espèce")
## Warning: Removed 2 rows containing missing values (geom_point).
penguins %>%
filter(sex != "N/A") %>%
ggplot(aes(x = sex, y = body_mass_g)) +
geom_boxplot() +
facet_wrap(~species)+
aes(color = sex)+
scale_color_manual (values = c("darkorange" ,"cyan4")) +
labs(x = "sexe", y = "poids en gramme", title = "Le poids des pingouins selon leur espèce en fonction du sexe")
penguins %>%
ggplot(aes(x = species, fill = species)) +
geom_bar() +
geom_text(stat = "count", aes(label = (..count..)), vjust = -1, size = 5) +
coord_cartesian(ylim = c(0,140))+
facet_wrap(~island) +
scale_fill_manual(values = c("darkorange","purple","cyan4")) +
labs(x = "L'espèce du manchot", title = "Répartition des manchots selon leur espèce")
penguins %>%
filter(species == "Adelie") %>%
ggplot(aes(x = island, y = body_mass_g))+
geom_boxplot(col = "darkorange") +
labs(x = "Ile", y = "Poids en gr", title = "Poids des manchots Adelie selon l'île")
## Warning: Removed 1 rows containing non-finite values (stat_boxplot).